P值争议新一季：我们是否需要一个统一的P值阈值？

Original: Nature自然科研 Nature自然科研 2019-07-01

原文以‘One-size-fits-all’ threshold for P values under fire为标题

发布在2017年9月19日的《自然》新闻上

原文作者：Dalmeet Singh Chawla

一部分科学家反对进一步提高统计显著性发现的认定标准。

何为“显著性”发现？研究人员对此意见不一。今年7月，72名研究人员将目标锁定P值，呼吁降低这个常用却饱受诟病的统计数值的阈值。9月18日，88名研究人员回应表示，更好的解决方式是让学者证明他们使用某个特定P值的合理性，而不是随意采用一个阈值。

几十年来，P值一直被用于衡量显著性，但是学者越来越意识到它的缺陷以及它被滥用的可能。2015年，一本心理学期刊全面禁止使用P值。

P值被用来检验“零假设”，一个假定被检测的现象之间不存在任何关联的默认状态。P值越小，结果为随机产生的可能性越小——假定该零假设是真的。当P值小于0.05时，结果通常被认为“具有统计显著性”——零假设被推翻。

7月，一些研究人员（包括积极推动提高研究结果再现性的人）在PsyArXiv预印本平台发表了一篇评论文章（之后发表在《自然-人类行为》上），认为该阈值应该降低至0.005，以防止假阳性出现在社会科学和生物医学文献中。

但是，该文章的第一作者、荷兰爱因霍芬科技大学的实验心理学家Daniel Lakens说：“在所有科学领域都推行一个阈值太极端了。”“当你让大家解释自己的研究时，科学就会进步，”他补充道。

意外后果

一些研究人员担心降低P值阈值会加剧“发表偏倚”（包含阴性结果的研究得不到发表）。更严格的P值阈值也有可能导致更多的假阴性——称一种实际存在的现象不存在。“在你执行任何一条政策前，你必须确定不会产生任何预期之外的负面结果，”Lakens说。

他和同事提出，研究人员应该在收集数据前，选择他们实验的P值阈值，并说明理由。阈值的大小将基于研究发现的潜在影响力以及它的惊人程度等因素。这样的阈值可以通过注册报告（registered reports）加以评估。注册报告指这样一类科学文章，在开展实验前，报告中的实验方法和拟议分析要先经过同行评议。

“我认为没有一个研究人员会主动说他们需要一个更严格的证据阈值，”德州农工大学的统计学家Valen Johnson提出反对意见，他是上述7月发表的文章的其中一位作者。而另一位作者、南加州大学的行为经济学家Daniel Benjamin则表示，许多科学家都倾向于宽待自己的研究。

但是Lakens认为通过研究人员提供的理由和解释，就能看清任何企图操控P值的行为。“至少所有人都认为改变0.05这未经仔细考量的数值是件好事，”他说。

美国统计协会的执行总监Ronald Wasserstein指出，为证据标准设定特定阈值“对科学无益”。去年，该协会发布了关于使用P值的明确建议，这在其177年的历史上还是第一次。

Wasserstein说他还没有加入目前关于P值阈值的争论，但是表示“我们应该接受不止存在一个‘魔法’数字”。ⓝ

Nature|doi:10.1038/nature.2017.22625

投票：你觉得P值阈值应该降低吗？

点击“阅读原文”阅读英文原文

相关文章

7月发表在预印本网站PsyArXiv上的一篇文稿引起了轰动。该论文提出，社会科学和生物医学的P值阈值应当被调低至0.005。

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。